相变

自注意力机制的“思维切换”：从位置记忆到语义理解的相变

众多实证研究已经发现，随着训练规模和数据量的增加，大语言模型中会自发涌现出不同的算法机制，从而显著提升模型的能力。然而，目前缺乏对这些机制如何产生的理论性刻画。本文在可解的点积注意力（dot-product attention）模型中，通过对具有可训练、低秩查

近日，日本理化学研究所（RIKEN）的物理学家千叶勇也（Yuuya Chiba）在《Physical Review B》上发表了一项突破性成果：他首次严格证明，量子伊辛模型（quantum Ising model）在二维及更高维度中不存在局域守恒量（local